통계량을 사상으로 보는 시각
통계량은 공식적으로 함수 $h: \mathbb{R}^n \to \mathbb{R}$로 정의됩니다. 통계량이 집합 $B$에 속할 확률은 전이상(전이역상, pre-image)을 통해 정의합니다:
$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$
i.i.d. 기반
i.i.d. (독립적이고 동일한 분포를 가진) 무작위 변수들의 표본에 대해 특정 샘플 포인트 $(x_1, \dots, x_n)$의 결합 확률은 각각의 마진 확률의 곱입니다: $p(x_1)p(x_2)\dots p(x_n)$. 이 곱은 통계량이 특정 값을 취할 때의 총 확률을 계산할 때 각 점의 가중치 역할을 합니다.
확률 질량 함수가 $p_X(1) = 1/2$, $p_X(2) = 1/4$, $p_X(3) = 1/4$인 이산 모집단을 고려해 봅시다. 우리는 크기 $n=2$의 표본($X_1, X_2$)을 추출하고 통계량을 기하 평균 $Y_2 = (X_1 X_2)^{1/2}$로 정의합니다.
통계량 $Y_2$의 분포를 구하기 위해, 가능한 9개의 모든 쌍 $(X_1, X_2)$을 나열하고, 각각의 결합 확률과 결과값 $Y_2$를 계산합니다:
| 쌍 $(x_1, x_2)$ | 확률 $P(x_1)P(x_2)$ | $Y = \sqrt{x_1 x_2}$ |
|---|---|---|
| (1, 1) | 1/4 | 1.000 |
| (1, 2), (2, 1) | 1/8 + 1/8 = 1/4 | 1.414 |
| (1, 3), (3, 1) | 1/8 + 1/8 = 1/4 | 1.732 |
| (2, 2) | 1/16 | 2.000 |
| (2, 3), (3, 2) | 1/16 + 1/16 = 1/8 | 2.449 |
| (3, 3) | 1/16 | 3.000 |
정확한 분포와 귐사 분포
중앙극한정리(CLT)와 같은 극한 정리로 넘어가기 전에, "정확한 분포"를 완전히 이해해야 합니다. 이는 작은 유한한 $n$에 대해 통계량의 구체적인 확률 질량 또는 밀도 함수를 계산하는 것을 의미합니다. 해석적 형태가 다루기 어려워지면, **몬테카르로 근사**(Monte Carlo approximations)와 같은 수치 시뮬레이션을 사용하게 됩니다.